2025-06-072025-06-07 随手记 2 分钟读完 (大约271个字) 0次访问

RDD 持久化

持久化指将数据进行保存，避免数据丢失。

RDD 持久化并非将数据落盘，而是缓存数据，供后续计算使用。

Cache()

persist()

Checkpoint

将 RDD 中间结果二进制形式写入磁盘
使用
- sc.setCheckpointDir(“hdfs://hadoop102:9820/output/a”)
- rdd.checkpoint()
- 手动释放rddx.unpersist(true)

Question

RDD 持久化方式？ #card
- Cache()
- persist()
memory_only 如果内存存储不了，会怎么操作？ #card
- 利用 [[LRU]] 的缓存策略把最老的分区从内存中移除
- 下一次使用被移除的分区需要重新计算

RDD 持久化

Ryen Xiang

2025-06-07

2025-06-07